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维 语 网 页 中 n-gram 模型 结合 类 不 平衡 SVM 的 不 良 文 本 过 滤 方 法 
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摘 要 : 随 着 新 疆 地 区 网 络 的 建设 发 展 ， 产 生 了 大 量 维吾尔 语 网 页 。 为 了 构建 健康 网 络 环境 ， 提 出 了 一 种 结合 n-gram 
统计 模型 和 类 不 平衡 支持 向 量 机 (SVM) 分 类 器 的 维 语文 本 过 滤 方 法 。 首先 , 将 网 页 文本 进行 预 处 理 操作 , 通过 n-gram 
统计 模型 来 初步 提取 词 干 ; 然后 ， 对 词 干 进行 语义 分 析 ， 将 具有 相似 含义 的 词 干 聚合 为 一 类 ， 以 此 降低 词 干 维度 ; 最 
后 ， 在 传统 SVM 中 引入 一 个 控制 超 平 面 之 间距 离 的 参数 ， 构 建 一 种 类 不 平衡 SVM， 使 其 能 够 很 好 地 分 类 具有 非 线性 
不 可 分 和 不 平衡 性 的 维吾尔 语文 本 。 实 验 结果 表明 ， 该 方法 能 够 准确 分 类 出 不 良 文 本 ， 且 具有 较 短 的 分 类 时 间 。 
关键 词 : 维吾尔 语 网 页 ; 不 良 文本 过 滤 ; n-gram 词 干 提取 ; 类 不 平衡 SVM 
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Reactionary text filtering method based on 
n-gram and class-unbalanced SVM for uyghur webpages 
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Abstract: Along with the construction and development of the network in Xinjiang, a large number of Uyghur webpages have 
been produced. In order to construct a healthy network environment, this paper proposed a Uyghur text filtering method 
combining n-gram statistical model and class-unbalanced support vector machine (SVM) classifier. Firstly, it preprocessed the 
webpage text, and extracted the stem initially by the N-gram statistical model. Then, it carried out the semantic analysis of the 
stems, and aggregated the stems with similar meanings into one class, thereby reducing the stem dimension. Finally, it 
introduced a parameter that controls the distance between hyperplanes in the traditional SVM, and constructed a 
class-unbalanced SVM to classify Uyghur texts with nonlinear indivisibility and imbalance. The experimental results show 
that the method can accurately classify bad texts and has a shorter classification time. 
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0 引 类 被 称 为 “少数 类 ”。 在 对 不 平衡 数据 集 进行 分 类 时 ， 分 类 器 往 

储 对 多 数 类 达到 较 高 准确 性 ， 但 对 少数 类 的 准确 率 较 低 凹 。 
于 互联 网 的 迅速 发 展 和 普及 ， 产 生 了 大 量 不 同类 型 的 短 近 些 年 ， 随 着 新 疆 经 济 和 教育 的 发 展 ， 产 生 了 很 多 维吾尔 
文本 ， 例 如 网 页 论坛 、 推 文 、 新 闻 提 要 、 书 籍 、 电 影 概 要 等 。 语 网 站 。 对 维 语 网 站 中 的 不 良 文本 信息 进行 过 滤 对 新 疆 的 稳定 
对 短文 本 进行 分 类 对 于 网 络 信息 过 渡 非 常 重要 中， 将 分 类 为 存 ”和 健康 发 展 具 有 重要 意义 。 目 前 ， 对 于 维吾尔 语文 本 的 分 类 和 
在 毒品 、 色 情 等 不 健康 文本 进行 过 滤 能 够 净化 网 络 环境 ， 有 助 ” 过 滤 方 法 研究 较 少 ， 主 要 为 新 疆 大 学 。 例 如 ， 文 献 [5] 通 过 使 用 
于 维护 社会 稳定 。 短 文本 通常 是 非 结构 化 的 ， 并 采用 简短 对 话 ”纯粹 的 统计 学 方法 ， 仅 依赖 于 单词 的 N-gram 来 进行 分 类 。 文 
的 形式 ， 由 多 个 短 名 组成。 由 于 短文 本 具有 稀 疏 特征 向 量 和 类 献 [6] 中 应 用 了 一 种 监督 方法 ， 使 用 最 大 粒 分 类 器 将 文档 分 类 为 
别 不 平衡 性 ， 因 此 不 能 使 用 传统 分 类 技术 来 对 其 进行 高 准确 性 ”已 知 类 别 ， 以 及 使 用 一 种 无 监督 学 习 方法 ， 将 未 标记 文档 进行 
分 类 P3。 不 平衡 数据 集 是 指 其 中 不 同类 别 的 样本 数量 不 均 。 一 ”分 组 ， 其 特征 向 量 由 原始 单词 和 其 N-gram 组 成 。 文 献 [7] 中 使 
个 包含 很 多 样本 的 类 被 称 为 “多 数 类 ”相反 ,包含 很 少 样本 的 。 用 了 一 种 最 近邻 (KNN) 分 类 器 ， 并 结合 了 三 种 不 同 的 距离 
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则 2 的 值 为 零 。 这 种 方法 
空间 矢量 是 稀疏 的 ， 很 少 有 特 
另外 ， 对 于 不 平衡 数据 集 
很 好 的 结果 。 为 此 ， 


v7 
采用 


欧 氏 和 Jaccard )。 文 献 [8] 提 出 


如 先 姑 力 。 阿 布 都 热 西 提 ， 等 : 维 语 网 页 中 n-gram 模型 结合 类 不 平衡 S 
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使 用 x 方法 进行 特 


了 支持 向 量 机 〈support vector machine，SVM) 
作为 分 类 器 。 使 用 x 统计 来 选择 特 和 


E, 如 果 特 征 和 类 是 独立 的 ， 


有 较 高 的 特征 维 数 空间 ， 因 为 文档 
E 是 不 相关 的 。 
的 分 类 ， 传 统 SVM 并 不 能 得 到 


些 学 者 对 


| 其 进行 了 改进 ， 例 如 ， 文 献 [9] 


对 SVM 中 多 数 和 少数 类 使 用 不 同 的 损失 函数 (即使 用 Lz 范 数 


出 模糊 支持 向 量 机 (FSVM) 作为 学 习 工 


的 平方 而 不 是 Li 范 数 )， 来 惩罚 少数 数据 样本 的 错误 分 类 。 文 


献 [10] 试 图 通过 向 少数 类 样本 的 支持 向 量 中 引入 校正 因子 来 校 
正 分 类 器 学 习 的 偏 移 ， 以 减少 SVM 模型 的 偏差 。 文 献 [11] 中 提 


。 这 些 技术 需要 微 


学 习 办 法 ， 


调用 户 定 义 的 参数 ， 
样本 合成 过 采样 技术 (SMOTE)， 
通过 对 少数 类 样本 的 人 工 合成 来 提高 


衡 村 


f 本 之 辣 


数 进行 微调 ， 


数 类 和 


器 ， 


有 高 度 复杂 1 


获得 


是 一 种 较 新 的 非 均 衡 数 据 集 


生 。 文 献 [12] 中 采用 了 少 类 


和 比例 » 以 平 


的 差异 。 但 是 ，SMOTE 需要 对 许多 用 户 定 义 的 参 
组 合适 参数 较为 困难 。 
一 种 称 为 MINSVM 的 改进 型 SVM 方法 ， 
# 本， 并 为 少数 类 样本 提供 更 大 的 权重 ， 
更 受 关注 , 致使 产生 的 超 平 夯 
其 删 减 样本 的 操作 一 定 程度 上 必然 会 影响 学 习 效果 。 


文献 [13] 中 提出 了 
| 减 一 部 分 多 
使 它们 比 多 数 类 


其 通过 


应 尽 可 能 地 接近 多 数 类 别 。 然 而 ， 


为 此 ， 本 文 结合 了 n-gram 统计 模型 和 类 不 平衡 SVM 分 类 


提出 了 一 个 新 的 框架 来 分 类 
仿 结 果 表明 了 提出 方法 能 够 有 交 


信息 过 滤 提 供 了 良好 基础 。 


一 上 
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工 o 


的 词义 09。 

的 困难 ， 如 特征 维 数 大 05。 
架 由 文本 处 理 

了 该 方法 的 工作 流程 。 首 先 ， 


提出 的 文本 过 滤 框 架 


维吾尔 语 是 以 阿拉 


日 字母 为 


基础 的 文字 ， 


维吾尔 字母 共有 32 个 ,字母 
4 种 表现 形式 ， 致 使 
干 和 词 级 组 成 ， 在 同一 词 干 前 后 添 力 


E， 给 维 副 和 


只 语文 本 信息 处 理 造成 一 定 


于 这 些 特 生 


所 提出 的 框架 


条 


| 


本 文 方法 的 
本 文采 用 


语义 相似 性 方法 来 进 


琉 怕 


\o 最 后 ， 采 上 


2 


es 


通过 应 


网 页 中 的 短 维吾尔 语文 本 。 实 
的 分 类 不 良 文本 ， 为 网 页 不 良 


有 高 度 的 黏着 


的 形式 具有 多 样 性 ,通常 包含 
态 变 化 较为 复杂 。 维 吾 尔 语 单词 由 词 


[不同 的 词缀 可 以 表示 不 同 


[分 类 器 两 部 分 组 成 。 图 
将 数字 文本 保存 在 UTF-8 格式 的 


文本 文件 中 。 然 后 进行 文本 处 理 ， 将 原始 文本 转换 为 特征 向 量 

提出 的 改进 型 SVM 分 类 器 (CUB-SVM)， 
训练 该 分 类 器 以 建立 一 个 分 类 模型 ， 用 于 分 类 测试 样本 。 
其 主要 创新 点 为 : a) 考 虑 到 维 看 尔 语 的 特性 ， 
了 N-gram 统计 模型 进行 词 干 提取 ， 同 时 采用 了 一 种 
步 归 类 词 干 ， 减 少 文本 的 特征 数量 和 稀 
FE;b) 为 了 提高 对 不 平衡 数据 的 分 类 精度 ， 本 文 在 传统 SVM 
基础 上 开发 了 一 种 改进 型 SVM。 


文本 预 处 理 与 向 量 表示 


1 显示 


传统 技术 来 分 类 短文 本 会 产生 大 量 和 稀疏 的 特征 


量 ， 从 而 导致 分 类 器 的 性 能 较 差 。 在 这 项 研究 
种 基于 词 干 的 特征 约 简 方法 ， 在 文本 转换 为 特征 向 量 之 前 ， 


+ 
泣 
yx 
El 
[ss 


日 


应 用 多 个 预 处 理 步 又 来 减少 特征 向 量 的 稀疏 性 。 这 种 方法 可 以 
分 五 个 阶段 来 描述 ， 如 图 2 所 示 。 
维吾尔 文 网 页 文本 | 
v 
文本 提取 和 存储 
A ee 
| 分 词 
车 无 用 词 过 滤 
| 处 
| 理 | N-gram 词 干 提取 


v 
语义 分 组 
yy | 
文本 特征 向 量 表示 | 
文  、 vv | 
| 本 | SVM 分 类 器 训练 
| 过 
i 
| 文本 分 类 过 滤 
输出 结果 
图 1 所 提出 方法 的 流程 图 
三 
ou a AAA PP 
Ca 
文本 | a) Ga oS 
.GH 和 用 ) 
ou eu AAA BB 
站 9 生 
Bs osx 
py 
Br 4 
LA be 兴 浊 AAA 
一 和 一 Re 、 
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首先 ， 使 月 


图 2 文本 处 理 与 向 量 表 示 流 程 图 
割 


斯 坦 福 分 词 器 09 对 原始 文本 进行 分 词 ， 将 介词 
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和 代词 从 原 词 中 分 离 出 来 ， 


2) 无 用 


词 过 滤 


文本 无 用 


吾 尔 语 符号 。 这 些 部 分 只 会 增加 特征 


和 其 他 非 维 


对 区 分 文本 没有 帮助 。 


3) 词 干 提取 


让 后 /7 五 日 
纪 吉尔 语 是 


并 分 隔 任何 标点 符 


如 先 姑 力 。 阿 布 都 热 西 提 ， 等 : 维 语 网 页 中 n-gram 模型 结合 类 不 平衡 S 


i 
sa 


干 一 起 比较 。 如 果 


个 词 干 与 另 


个 词 干 共享 


个 同义词 ， 则 


这 些 词 干 被 认为 具有 相似 的 含义 并 被 分 组 在 一 起 。 如 果 一 个 词 


词 过 滤 过 程 包括 删除 停止 词 、 代 词 、 数 字 、 标 点 


向 量 的 大 小 ， 


都 是 其 
同一 根 派生 


词 


因此 , 词 干 可 以 被 认为 是 一 个 特 和 


种 以 词 干 为 3 


E 的 语言 ， 这 意 


味 着 几乎 每 一 个 


的 词 具有 相似 的 含义 , 因此 本 


自身 的 根源 ， 或 者 源 于 三 个 字母 或 四 


个 字母 的 根 。 从 


以 根据 它们 的 根 分 组 。 


采用 


文本 中 一 个 


更 适合 
的 统计 方法 为 n-gram 统计 模型 7 
即将 连续 NN 个 字母 作为 一 个 gram 单元 。n-gram 模型 中 ， 对 于 
不 良 字母 ， 设 定 其 出 现 的 概率 与 前 


E， 从 而 减少 特征 
住 吾 尔 语 环境 的 统计 方法 来 提取 词 干 。 所 采用 
。 在 字母 层 上 进行 单词 切 分 ， 


向 量 的 长 度 。 


而 N-1 个 字母 


的 出 现 情况 相关 。 因 此 ,字母 序列 =174,..1, 出 现 的 概率 为 ; 


N-gram 模型 中 N 的 设 定 需要 结合 


N 
PD = PO dy) = LP wel) 


维吾尔 语 ， 


于 其 每 个 单词 都 


(1) 


的 V 不 能 


效 地 代表 单词 属性 , 而 入 较 大 如 等 于 3 或 4 时 , 则 
具有 较 强 的 代表 性 。 
本 文 利用 
储 度 和 宛 余 度 ， 首 先 根据 维吾尔 语词 


见 的 词缀 。 然后, 计算 两 个 
为 了 展示 n-gram 统计 模型 提取 词语 的 过 程 ， 列 举 了 一 个 
N=2 时 的 例子 , 即 计算 两 个 词 bk (教育 ) 和 sb (教育 的 ) 


的 相似 度 。 


1.sobb 过 we 5 bk 。( 首 先 将 词 分 解 为 N=2 字母 组 合 单 


元 ) 


2. 去 除 和 常用 词缀 的 两 字母 组 合 
3. Nb 之 iy Le ho 


4. 去 除 常用 词 级 的 两 字母 组 合 
那么 , 这 两 个 单词 的 相似 怕 


n-gram 统计 模型 提取 词 干 过 程 中 ， 为 了 降低 单 
， 删 除了 单词 中 最 常 
中 ,以 此 来 提取 词 


词语 的 相似 度 


多 个 字母 结合 


为 : S= 2C 一 


体 的 语言 环境 ， 对 于 


而 成 ， 为 此 较 小 


一 oy be bo 


SS oy be bh 。 


2x3 -0.8571 。 


A+B 


4+3 


其 中 ，A 表示 第 一 个 单词 中 所 包含 的 且 第 二 个 单词 中 不 存在 的 


字母 组 


dy 
口 


的 数量 ， 同 样 ，B 第 二 个 单词 9 


词 中 不 存在 
字母 组 合 的 


ww 四 
里 。 


这 两 个 词 合 


4) 词义 分 组 


并 为 一 个 词 干 。 


的 字母 组 合 的 数量 ; 


词 干 有 


助 于 将 单词 与 


Ph 所 包含 的 
C 表示 两 个 词 中 都 包含 的 相同 
若 两 个 单词 的 相似 性 大 于 设 定 的 阔 值 ， 则 将 


且 第 一 个 单 


遇 于 同一 词 干 的 单词 进行 分 组 ， 但 是 


些 


有 相似 含义 的 


义 方法 按 以 
首先 ， 


方式 对 
将 来 


有 本 


让 返回 包 


含 该 词 干 的 


诸 在 包 


含 词 干 和 其 


站 词 不 共享 相 
目 似 含义 的 词 干 进行 分 组 。 
自 数 据 集 的 每 个 词 干 作为 查询 词 ， 
司 义 词 。 然 
司 义 词 的 列表 中 。 


司 的 词 干 。 


三 ， 


从 文本 源 中 提取 同义词 
最 后 ， 将 列表 中 的 词 


出 


妹 此 本 文 使 用 语 


根据 同义词 


干 与 已 在 组 中 的 词 干 共享 同义词 ， 则 新 的 词 干将 添加 到 


现 有 组 


中 。 该 过 程 仅 执 行 一 次 迭代 ， 这 意味 着 所 得 到 的 组 不 会 再 聚合 


在 一 起 。 
图 3 展示 了 语义 分 引 


有 阶段 的 过 程 。 到 这 个 阶段 结束 时 ， 具 


有 相似 含义 的 词 干 被 分 组 在 一 起 ,并 且 可 以 被 认为 是 一 个 特征 。 


数据 集 词根 


Roo1, Root2, | 


1 


Root3,........., RootR, 
v 
同义词 字典 | 4 维 文 电子 词典 
|Rootl1: (Syn1 ~ Syn2 — Syn3 - ...) 
vy Root2: (Syn4 ~ Syn5 — Syn6 - ...) 
词根 同义词 表 


| 


词根 同义词 对 比 


Then Rooti=Rooj 


| If Rooti(Syn) ==Rootj(Syn) 


| 


Root1: (Root8 — Root10) 
| Root2: (Root5) 

| Root3: (Root6 — Root10) 
Root4: () 


相似 词根 表 


图 


5) 特征 向 量 构建 


| Root5: (Root2) 


RootR: (Root15 ~ Root30 - ....) 


3 词义 分 组 示例 


在 这 个 阶段 ， 根 据 获得 的 词 干 特征 ， 为 数据 集中 的 每 个 文 


本 构建 特征 向 量 ， 并 且 整 个 数据 集 可 以 以 表格 


多 式 呈 现 。 


3 ”提出 的 改进 型 SVM 文本 分 类 器 


3.1 传统 SVM 分 类 器 


SVM 分 类 器 是 一 种 


基于 统计 学 的 机 器 学 习 方法 , 其 基本 思 


想 就 是 通过 一 个 非 线性 映射 ， 将 数据 映射 到 高 维特 征 空间 ， 然 


后 执行 线性 


I 


归 。 


设 定 输入 一 个 数据 集 G ={(x,y,)}"，，xe R" 为 输入 特征 向 
量 ，y 为 期 望 输出 值 。 对 于 二 分 类 问题 ,SVM 的 映射 函数 表示 


出 


y= wh(X)+b (2) 


E 空 间 ， 参 数 w 和 的 值 


为 : 
其 中 :Wo 表示 将 数据 映射 到 高 维 
是 通过 最 小 化 下 式 来 近似 获得 : 


Ro (O= (0 Ly mp) +6]+ ho /2 


为 了 方便 计算 ， 引 入 I 


(3) 


个 松弛 变量 z+ 和 上 ， 那 么 就 变 成 


通过 最 小 化 下 式 来 估计 参数 值 ; 


Ro 0w, 6) = E+) + 
i=1 


(4) 
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其 中 : 满足 以 下 条 件 : 
wh(x)+b,—y,<ete (5) 
y:— wx)-b Sett (0) 
3.2 改进 的 类 不 平衡 SVM(CUB-SVM) 
在 这 项 工作 中 ， 为 了 使 SVM 能 够 很 好 地 处 理 具 有 非 线性 
不 可 分 和 不 平衡 性 的 维吾尔 语文 本 ， 本 文 扩 展 了 传统 SVM 分 
类 器 ， 形 成 类 不 平衡 SVM(CUB-SVM)。 
除了 将 内 核 集成 到 SVM 之 外 ， 本 文 引入 了 一 个 新 的 参数 
tf。 它 将 多 数 数据 样本 与 分 离 超 平面 之 间 的 距离 最 小 化 ， 并 将 


少数 数据 样本 与 分 离 超 平面 之 间 的 距离 最 大 化 ， 如 图 4 所 示 。 


CUB-SVM 的 目标 公式 为 


1 N N; 
zl w+c' SD E+C DE 


{ily; =+1} {iby =—1} 


mn 二 本 0 
+D Dr-D Or 
{ily; =+1} {ily;=-1} 
满足 : 
w Gx) thr -Efor x:y,=+1 (8) 
w IN) tbs -tr -6 for x:y;=-—1 (9) 
TG TG 0for Vx (10) 


其 中 : 下 标 “+” 代 表 多 数 类 别 ,“-” 代 表 少 数 类 别 ， 并 且 
C+,C-,D+,D- 为 比例 参数 。 
那么 ， 该 问题 的 拉 格 朗 日 方程 为 


1 和 a 十 一 = 十 站 
已 = 了 WP+C 人 CD Dr 
2 (Ue Ul {b=+y) 
N, NM 
-D > 5- > Aw GH) tb-r + + 
{ily;=-1} {iby =+1} 
(11) 
> Mw GE)+b+trT te] > 06 — 


人 = {iby; =+1} 


N> Ni N> 
> bs: 一 > YT >》, O7 


人 = {ib;=+1} {iby=-1} 


其 中 : ?maisB 7,G 为 拉 格 衣 日 乘 子 。 


通过 找到 KKT 条 件 并 


代入 拉 格 朗 日 函数 ， 本 文 可 以 得 到 一 个 双重 问题 ， 表 示 为 。 
3 3 tp0)00) 
{ily;=+1}{ jby; =-1} 
max! -= 》 bp3 AAGX) GX,) (12) 
4 2 0 
1 N; N, 
a >» 六 Hil GX) G(X) 
2 {ily=-1}{ jb; =-1} 
满足 : 
Ni N; 
4- > 4=0 (13) 
{iby; =+1} {iby;=-1} 
0<4<C! (14) 
三 > 万 - (15) 
使 用 K(x,x))= G(X)G(x,) ， 那 么 CUB-SVM 可 以 表示 为 


如 先 姑 力 。 阿 布 都 热 西 提 ， 等 : 


维 语 网 页 中 n-gram 模型 结合 类 不 平衡 S 


Ni AN 
>》， MMiK (Xx, xX)) 
{ib;=+1}H{ bj;=-!} 
] 之 Ni 
maxy 一 二 2 MAN K(X, xX;) (16) 
th 2 {iby =+1}{ jb =+1} 
N, N; 
二 > HHK (XxX)) 
2 {ibi=-1H jb;=-1} 


> ?4- > =0 (17) 


{ib;=+1} fy = 


0<1<Cr (18) 
>D- (19) 
在 解决 ,yw 的 这 个 问题 后 ， 本 文 可 以 找到 分 离 超 平面 ， 其 
中 : 
NM N; 
w= 2 146%)- > LV) (20) 


{ibi=+1} 人 =- 


并 且 ， 分 类 器 的 公式 变 为 


f (7 = sign( > AK(x,xX,)— py LK(xX,X)+b) (21) 


{iby=+1} {ib;=—!} 


X1 候 
H* 
a 
4 @ 
CH © 
ZN 
人 网/ ® @ 和 
“LA S 
天 
> 
X2 


图 4 CUB-SVM 超 平面 和 余 : 


4 ”实验 及 分 析 


4.1 实验 设置 
为 了 测试 网 页 文本 中 的 各 种 不 良 主 题 ， 从 各 种 维吾尔 文 网 
站 论坛 上 收集 了 500 篇 文本 ， 分 为 4 大 类 : (1) 毒 品类 的 文本 ， 
数量 为 143 篇 ; (2) 色 情 类 的 文本 ， 数 量 为 78 篇 ，(3) 赌 博 类 的 
文本 ， 数 量 为 107 篇 ; (4) 正常 文本 ， 数 量 为 172 篇 。 这 些 文本 
及 其 类 别 具 有 不 平衡 性 ， 文 本 集 的 字符 长 度 统计 如 表 1 所 示 。 
表 1 文本 数据 集 的 属性 


最 小 值 最 大 值 均值 标准 差 
字符 数 91 2030 834 484 
单词 数 25 460 195 113 
另外 ， 在 具有 Intel 酷 害 15 5250@2.7GHz CPU，24 GB 内 


存 和 Windows7 64 位 PC 机 上 ， 通 过 使 
CVX 2.1 工具 箱 实现 本 文 方法 。 
4.2 性 能 指标 

对 数据 集 进 行 五 重 交 叉 验 证 。 为 了 测量 分 类 器 的 性 能 ， 使 
了 三 个 度量 标准 ， 其 中 设 定 TP 表示 正确 分 类 的 阳性 样本 ， 


j MATLAB R2013b 和 


H 


an 


Sg 
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录用 定稿 如 先 姑 力 。 阿 布 都 热 西 提 ， 等 : 维 语 网 页 中 n-gram 模型 结合 类 不 平衡 SVM 的 不 良 文本 过 滤 方 法 
FP 表示 错误 分 类 的 阳性 样本 ，TN 表示 正确 分 类 的 阴性 样本 ， 可 以 看 出 ， 本 文 CUB-SVM 分 类 器 优 于 传统 SVM 和 一 些 
FN 表示 错误 分 类 的 阴性 样本 。 改进 SVM 分 类 器 ， 其 中 F-measure 比 传 统 SVM 提高 了 16%6 。 
a) 准 确 性 度量 (Accuracy)， 用 于 评估 分 类 器 正确 分 类 的 性 ， 这 是 因为 ， 本 文 方法 中 的 预 处 理 过 程 可 以 有 效 降低 数据 维度 ， 
能 ， 表 示 如 下 。 且 提 出 的 CUB-SVM 能 够 很 好 地 对 不 平衡 短文 本 进行 分 类 。 
TP4TN 对 于 SMOTE 和 MINSVM 方法 ,数据 重 采样 技术 并 不 能 提 
Accuracy = (22) 
TP+IN+FP+EN 高 SVM 分 类 器 的 性 能 ， 这 是 因为 其 通过 改变 数据 的 分 布 可 能 
b)F-measure 度量 ， 用 于 评估 分 类 器 的 整体 性 能 。 其 中 ， 导致 更 多 的 异常 值 来 降低 SVM 的 性 能 。 另 外 ， 具 有 不 同 成 本 
了 -measure 由 精确 性 (Precision) 和 召回 率 (RecalD 计 算 而 来 , 分 别 函数 的 SVM 确实 提高 了 分 类 器 的 精确 性 ， 但 是 这 种 改进 是 以 
表示 如 下 : 降低 召回 率 为 代价 的 ， 这 导致 较 低 的 F-measure 值 和 整体 准确 
Precision = (23) 度 。 
TP+FP 另外 ， 表 3 给 出 了 各 种 分 类 器 的 分 类 时 间 ， 其 中 为 了 公平 
Reca 2D 让 比较 ， 维 吾 尔 语文 本 数据 的 预 处 理 中 ， 都 采用 了 本 文 提 出 的 过 
TY+ZN 滤 和 词 干 提取 步 又。 可 以 看 出 ，SMOTE-SVM 具有 最 高 的 运行 
Precision x Recall 时 间 ， 因 为 它 需 要 对 数据 执行 过 采样 ， 这 非常 耗 时 且 导 致 产生 
F-Measure =2x( 一 (25) 
Precision + Recall 更 多 的 数据 。MINSVM 最 低 的 处 理 时 间 ， 因 为 它 随 机 删除 
cjAUC 面积 。 感 受 性 曲线 (ROC) 是 以 真 阳性 率 和 假 阳性 率 ”部 分 数据 样本 ， 这 导致 数据 集 更 小 ， 因 此 处 理 时 间 更 短 。 本 文 
为 坐标 的 曲线 ， 曲 线 与 X 坐标 轴 之 间 的 面积 则 为 AUC 面积 ， CUB-SVM 分 类 器 的 处 理 时 间 比 标准 SVM 分 类 器 稍 长 , 但 并 没 
取 值 为 0.5 到 1 之 间 ， 用 来 反映 分 类 器 的 效果 。 其 值 越 大 说 明 ”有 明显 增加 开销 。 
分 类 效果 越 好 。 表 3 各 种 分 类 器 的 分 类 时 间 
4.3 分 类 结果 分 析 分 类 器 本 文 CUB-SVM SVM MINSVM SMOTE-SVM 
首先 ， 本 文 分析 了 预 处 理 阶 段 的 效果 。 在 传统 文本 处 理 方 分 类 时 间 (s) 21 16 43 58 
法 中 ， 直 接 将 词语 作为 特征 而 不 进行 过 滤 和 词 干 化 。 对 于 本 文 ”4.4 统计 分 析 
采用 的 维吾尔 语文 本 数据 集 ,传统 方法 会 产生 长 度 为 6204 的 特 统计 分 析 用 于 测试 分 类 器 之 间 准 确 度 差异 的 显著 性 。 给 定 
征 向 量 。 而 本 文 方法 经 过 词 干 提取 和 语义 分 组 后 ， 所 获得 特征 。 ”两 个 分 类 器 ， 统 计 测试 分 类 器 是 否 具有 相同 的 期 望 错 误 率 。 为 
向 量 长 度 为 1163， 缩 小 了 近 5.3 倍 。 了 进行 统计 分 析 ， 本 文采 用 了 K 折 交 叉 验 证 实验 。 
为 了 评估 本 文 CUB-SVM 的 性 能 , 将 其 与 标准 SVM、 文 献 KK 折 交 叉 验 证 中 , 从 原始 数据 集中 获得 K 个 训练 /测试 集合 
[13] 提 出 的 MINSVM 和 文献 [12] 提 出 的 SMOTE-SVM 进行 比 对。 分 类 器 在 训练 集 train, 上 训练 并 在 测试 集 test 上 测试 。 训 
较 ， 以 突出 不 同 改进 型 分 类 方法 之 间 的 区 别 。 表 2 给 出 了 各 种 。 练 和 测试 集 上 分 类 器 的 误差 率 分 别 表示 为 pl,p? ,i=1,2,...,K。 
方法 在 数据 集 上 的 性 能 平均 值 。 图 3 给 出 了 各 种 方法 的 ROC 如 果 分 类 器 具有 相同 的 错误 率 ， 则 它们 应 该 有 具有 相同 的 均 
线 。 je 即 它们 的 平均 值 的 差 值 应 该 等 于 0。 对 于 交叉 验证 测试 ， 
表 2 各 分 类 器 的 平均 分 类 结果 有 i 个 错误 率 的 差异 为 p = pl p?， 为 此 可 得 到 一 个 包含 K 点 
分 类 器 。 “准确 性 (%) 精 度 (%) 召 回 率 (9%)F- 度 量 AUC 面积 pj; 分布。 假设 p! 和 p? 都 是 正 态 分 布 的 , 那么 它们 的 差异 p, 
本 文 CUB-SVM 0.92 0.87 0.89 0.88 0.94 也 是 正 态 分 布 的 。 
SVM 0.83 0.73 0.80 “0.76 0.83 假设 瓦 , 为 这 种 分 布 具 有 正常 的 零 均 值 。 
MINSVM 0.87 0.81 0.85 0.83 0.87 Hiu=0, Hii:u#0 
SMOTE-SVM 0.89 0.84 0.86 0.85 0.91 a py: 4 el 
在 j=0 的 零 假设 下 ， 有 一 个 符合 t+ 分布 的 自由 度 为 及-1 
的 统计 量 : 和 oe 
如 果 该 值 在 范围 (= x_i,-tsjsxji) 之 外 ， 则 测试 拒绝 在 显 
ORS 著 性 水 平 c 上 的 假设 。 当 wx =0.1 时 ， 置 信 水 平 为 90% ， 范 转 
a 为 (-2.132，2.132)。 
一 测试 的 错误 率 以 及 整体 错误 率 的 统计 分 析 结 果 如 表 4 所 
0 示 。 由 于 数据 集 具有 不 平衡 性 ， 有 些 类 别 的 样本 数量 较 少 。 统 
图 3 各 种 分 类 方法 的 ROC 曲线 计 结 果 可 以 看 出 ， 所 有 测试 均 拒 绝 少数 类 别 的 假设 。 对 于 多 数 


类 别 来 说 ， 假 设 在 两 个 数据 集 上 被 拒绝 并 在 其 他 三 个 数据 集 上 
被 接受 ， 这 意味 着 两 个 数据 集中 的 错误 率 在 其 他 分 类 器 上 存在 
差异 ， 但 在 其 他 三 个 数据 集 上 没有 差异 。 J 所 
有 数据 都 接受 假设 ， 这 意味 着 整体 错误 率 没 有 差异 。 总 之 ， 本 
文 CUB-SVM 分 类 器 在 少数 类 别 上 具有 较 好 的 准确 性 ， 同 时 不 
会 牺牲 整体 的 准确 性 ， 这 说 明了 本 文 分 类 器 能 够 很 好 地 处 理 不 
平衡 数据 。 


nt 


表 4 分 类 器 成 对 统计 分 析 的 分 数 


分 类 器 对 多 数 类 分 数 少数 类 分 数 总 体 分 数 

0.561 一 2.953 一 1.452 

CUB-SVM vs. SVM 

accepted accepted accepted 

1.742 —4.765 —0.503 

CUB-SVM vs. SMOTE-SVM 

rejected accepted accepted 

0.405 —2.526 —1.416 

CUB-SVM vs. MINSVM 

rejected accepted accepted 


5 ”结束 语 


本 文 提 出 了 一 种 用 于 维吾尔 语 网 站 文本 过 滤 的 方法 ， 采 用 
了 不 良 的 文本 预 处 理 和 词 干 提取 步骤 来 降低 文本 特征 维度 ， 
将 本 文 向 量化 表示 。 为 了 更 好 的 对 类 不 平衡 文本 进行 分 类 ， 提 
出 了 一 种 改进 型 的 SVM 分 类 器 (CUB-SVM)， 以 此 实现 维吾尔 


语文 本 的 高 精度 分 类 ， 从 而 对 不 良 文 本 进行 过 滤 。 实 验 结果 表 
明 ， 提 出 的 方法 能 够 准确 分 类 出 不 良 类 的 网 页 文本 ， 能 够 应 用 


于 维吾尔 语 网 页 的 管理 和 净化 。 
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